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摘 要 随 着 密集 追踪 研究 在 心理 学 等 社会 科学 领域 的 广泛 运用 ， 密 集 追 踪 情 境 中 测验 信 度 
的 估计 也 受到 越 来 越 多 研究 者 的 关注 ,早期 沿用 横断 研究 中 信和 度 估计 思想 或 基于 概 化 理论 的 
信 度 估计 方法 存在 诸多 局 限 ， 并 不 适用 于 密集 追踪 的 情境 。 针 对 密集 追踪 数据 的 多 层 结构 和 


动态 特性 这 
密集 追踪 研究 中 测验 的 信 度 。 通 过 实证 数据 的 演示 与 比较 , 讨论 三 种 估计 方法 的 特点 和 适 
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两 大 特点 , 可 基于 多 层 验 证 性 因子 分 析 、 动态 因子 分 析 和 动态 结构 方程 模型 估计 
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E 得 到 对 个 体内 水 平 信和 度 的 一 个 整体 评估 。 然 而 ,这 一 假设 在 实际 研究 中 可 能 


并 不 成 立 ， 密 集 追 踪 研 究 中 测验 信 度 很 可 能 存在 个 体 间 差异 (Hu et al., 2016)。 此 外 ， 基 于 多 


层 验证 性 因子 分 析 的 信 度 估计 方法 没有 考虑 密集 追踪 数据 中 连续 观测 点 之 间 的 时 序 关 系 , 即 


忽视 了 密集 追踪 数据 的 动态 特 


生 ， 这 可 能 会 影响 密集 追踪 研究 中 的 信 度 估计 结果 的 准确 性 。 


-> 


3 聚焦 动态 特性 的 信和 度 估计 方法 


基于 动态 


因子 分 析 (dynamic factor analysis, DFA) 的 信 度 估计 方法 是 密集 追踪 研究 中 另 


一 种 重要 的 信 度 估计 方法 。 动 态 因 子 分 析 最 初 由 Molenaar(1985) 提 出 ,， 它 在 P 技术 因子 分 析 


(P-technique factor analysis; Cattell et al., 1947) 的 基础 上 进一步 融入 时 间 序 列 分 析 ， 可 以 对 不 


同 的 个 体 建立 不 同 


的 模型 以 考察 个 体 特 定 (person-specific) 的 动态 过 程 。 后 来 ， 有 研究 者 将 这 


一 方法 应 用 于 密集 追踪 研究 中 的 信 度 估计 (Euller-Tyszkiewicz et al., 2017; Lane & Shrout, 


2010)。 这 一 信 度 估计 方法 能 通过 考虑 变量 的 自 回归 过 程 ， 体 现 密集 追踪 数据 的 动态 特性 ; 
还 能 基于 每 个 个 体 的 数据 建立 模型 ,估计 个 体 特定 信和 度 , 帮助 研究 者 更 好 地 了 解 不 同 个 体 在 


某 个 测验 信和 度 上 的 个 体 间 差异 。 


基于 动态 


因子 分 析 的 信和 度 估计 方法 对 每 个 个 体 分 别 建立 动态 因子 模型 并 计算 个 体 特定 
WE. KUER, 


基于 动态 因子 分 析 的 信和 度 估计 方法 对 单 维和 多 维 测量 结构 的 情况 均 适 用 ， 


本 文 以 单 维 测 量 结构 的 情况 为 例 (多 维 的 情况 可 参见 Fuller-Tyszkiewicz 等 人 (2017) 的 研究 )。 


个 体 的 动态 因子 模型 可 以 分 为 测量 部 分 和 结构 部 分 (如 图 2)。 测 量 部 分 的 表达 式 为 : 


Y= ji + Ai Put Eji (8) 


RP, Yuri ME i AE 7 在 第 t 个 测量 时 间 点 的 观测 分 数 G = 1, 2, q; t= 1,2, ..., I=, 


2,.…,n); Qj 是 个 体 i 的 题目 j AES Fi 是 个 体 i 在 第 t 个 测量 时 间 点 的 潜在 因子 ; Ay 


是 个 体 i 的 题目 j 的 因子 载荷 ，gjs 是 个 体 i 的 题目 j 在 第 t 个 测量 时 间 点 的 测量 误差 ， 假设 


服从 正 态 分 布 ( 即 ，gjs~N(0,0;))， 各 个 题目 的 测量 误差 的 协 方差 为 零 ( 即 ， 


COV (Eji Eji) = 0, J £j’) o 


在 结构 部 分 ， 假 设 潜在 因子 满足 一 阶 自 


日 过 程 ， 则 结构 部 分 可 表示 为 : 


pni 
t 
1] 


Fy = QO) Fiait En (9) 
其 中 ，q; 是 个 体 特定 的 自 回 归 效 应 (autoregressive effecD)， 也 被 称 为 惯性 (inertia) 或 滞留 效应 
(carry-over effect)， 描 述 了 前 一 个 时 间 点 的 潜在 因子 水 平 对 当前 时 间 点 的 潜在 因子 水 平 的 影 


响 ; Ej 是 个 体 i 的 潜在 因子 在 第 1 个 测量 时 间 点 的 动态 误差 (dynamic error), 假设 服从 正 态 分 


2 个 体 i 的 动态 因子 模型 


H, Eu~ N (0, 07))。 

基于 上 述 模型 , 可 以 计算 每 个 个 体 的 各 个 题目 和 各 个 维度 的 信 度 。 定 义 某 个 题目 的 个 体 
特定 信 度 为 该 题 由 潜在 因子 解释 的 变异 与 该 题 的 总 变异 之 比 , 各 个 维度 的 个 体 特 定 信 度 为 该 
全 度 内 各 题 由 潜在 因子 解释 的 总 变异 与 该 维度 内 各 题 总 变异 之 比 。 个 体 的 题目 六 的 个 体 特 
定 信和 度 (Rel;) 和 各 个 维度 的 个 体 特定 信和 度 (Reli) 分 别 为 : 


var(A iF 1) 


var(AF a) + var (Ej) 


ASS 


Rel; = (1 0) 


其 中 ， var(A iF 


H(A ) 的 乘积 ; 


由 公式 (9) 可 知 ， 潜 在 因 


基于 一 阶 自 


口 


归 j 


ire FY DA PH EB 


Rel;= i 


(D1 Ayvar Fn) 


var(Eju) EAT VAI 


子 解释 的 变异 , 3 


aA var(En)+ Sy 


var(Ejti) 


潜在 因子 解释 的 变 


子 解 


子 的 方差 (var(j)) 满 足下 式 : 


子 的 方差 (var(Fi)) 与 因 


异 ， 即 测量 


var(Fi) = Q} var(Fiy, i) + var(En) 


过 程 的 弱 平稳 假设 (weak stationarity assumption), 


潜在 因 


变 ( 即 ，var(Fj) = var(Fij ;))， 故 可 将 公式 (12) 改 写 为 公式 (13): 


A 


AAN 


基于 动 
， 但 


因子 分 析 的 信和 度 估计 方法 


var(F;;) = Te 


能 估计 个 体 特 


定 信 度 , 还 能 体现 密 鲁 


它 也 有 一 些 不 足 。 首 先 ， 


茶 一 构 念 在 多 次 观测 


水 平 的 偏离 )， 这 可 


HA), 
间 水 平 的 测 


而 不 考虑 


He 
其 人 


埋 构 ， 无 法 估计 个 体 间 水 了 
也 个 体 或 整个 群体 的 信 


S 


wy 


可 


u 


的 测验 信 度 。 此 外 ， 仅 利 
能 会 导致 菜 些 个 体 模型 难以 收敛 , 进而 无 法 


差 。 其 次 ， 


构 念 的 某 次 观测 相对 
这 种 方法 忽视 了 个 体 


(11) 
子 载 答 的 


误差 的 变异 ( 即 ，02)。 


(12) 


子 的 方差 随时 间 不 


(13) 


追踪 数据 的 
动态 因子 分 析 混 消 了 观测 分 数 的 特质 成 分 ( 即 个 体 的 
的 一 般 水 平 ) 和 状态 成 分 ( 即 个 体 的 某 一 
会 导致 个 体 特定 信 度 的 估计 结果 有 仿 


一 般 


~ 


j 单 一 个 体 的 重复 测 


Att Fe 


些 个 体 的 信 度 (可 参见 Fuller-Tyszkiewiez 等 人 (2017) 的 研究 结果 或 本 文 的 实证 示例 )。 


4 整合 多 层 结 构 和 动态 特性 的 信 度 估计 方法 


基 


于 多 
据 的 部 分 特点 ， 


性 


层 验证 


equation modeling, DSEM) 则 为 密集 追踪 数据 的 多 


因子 分 析 和 基于 动态 


而 Asparouhov 等 


结构 方程 模型 综 


站 会 已 


已 用 


2020)。 
以 体现 密 
测 点 之 间 的 时 间 依 赖 怕 


叶 斯 估计 法 ， 相 比 于 传统 的 多 


(如 参数 的 个 
因子 模型 一 样 


拓展 (Asparouhov et al., 


型 综合 了 多 层 模 型 、 
壬 个 体内 和 个 体 间 水 习 
追踪 数据 的 多 


E， 以 体现 密 


时 间 序 列 模型 
FEF 分别 建立 因 


屋 结 构 ; 它 还 能 在 个 体内 水 平 构建 变量 


FS 


za 


子 模型 ， 


Sia 


iE be Bia ona 


层 模型 


2018)。 总 之 


VK 


估计 得 到 个 体 特定 信和 度 , 故 也 有 研究 者 将 其 视 为 动态 
， 动 态 结构 方程 模型 


因子 分 析 的 信 度 估计 方法 都 只 关注 了 密集 追踪 数 
人 (2018) 提 出 的 动态 结构 方程 模型 
结构 和 动态 特性 的 整合 提供 可 


4 和 结构 方程 模型 的 优势 (McNeish & Hamaker, 


I (dynamic structural 


fig. BA 


考虑 变量 在 不 同 水平 的 测量 结构 ， 


的 
Eo LEAP, 


回归 过 程 , 考虑 连续 观 
动态 结构 方程 模型 采用 贝 
i] 极 大 似 然 估计 ) 可 以 更 灵活 地 估计 参数 的 随机 效应 


本 间 差异 ; McNeish & Hamaker, 2020; Muthén & Asparouhov, 2012)， 可 以 像 动态 


La 


能 同时 体 ] 


构 和 动态 特性 , 还 能 考察 测验 信 度 的 个 体 差 异 , 有 助 于 研 


因子 模型 在 多 层 
追踪 数据 的 多 


情况 下 的 


究 者 更 好 地 估计 和 理 


解密 


RE 


究 中 的 信 度 (Luo et al., under review; Xiao et al., 2023). 

类 似 上 述 的 两 种 方法 , 基于 动态 结构 方程 模型 的 信 度 估计 方法 对 单 维和 多 维 测量 结构 的 
情况 均 适用 ， 本 文 以 单 维 测量 结构 的 情况 为 例 (多 维 的 情况 可 参见 Xiao 等 人 (2023) 的 研究 )。 
对 于 单 维 测量 结构 的 构 念 , 常见 的 两 水 平 动态 结构 方程 模型 (two-level DSEM; 如 图 3) 首 先 将 
观测 分 数 分 解 为 个 体 间 成 分 ( 即 特质 成 分 ) 和 个 体内 成 分 ( 即 状态 成 分 ): 


We (14) 
其 中 ,ys 是 个 体 i 的 题目 j 在 第 ! 个 测量 时 间 点 的 观测 分 数 f = 1, 2, q; t= 1, 2 Ti=1 


2, n); 态 是 个 体 字 的 题目 在 所 有 测量 时 间 点 的 潜 均 值 ( 即 个 体 间 成 分 )， 代 表 变 量 的 特质 


= 
lin 


水 平 ; 7 是 个 体 i 的 题目 j 在 第 1 个 测量 时 间 点 的 观测 分 数 与 该 个 体 在 该 题目 上 潜 均 值 的 偏 


图 3 两 水 平 动态 结构 方程 模型 
点 代表 估计 该 参数 的 随机 效应 ， 即 其 个 体 间 差 异 。 本 图 参考 了 Xiao 等 人 (2023) 文 章 中 的 图 1。 


到 


YE: 实心 


N 


离 值 ( 即 个 体内 成 分 )， 代 表 变 量 的 状态 水 了 
然后 ， 对 观测 分 数 的 个 体内 成 分 建立 个 体内 模型 (如 图 3 左下 部 分 )， 包 括 测量 部 分 和 结 
构 部 分 。 在 测量 部 分 ， 个 体内 成 分 被 进一步 分 解 : 


o 


jti 


其 » Sie AMA ?在 第 :个 测量 时 间 点 的 潜在 状态 因子 ;入 多 是 个 体 的 题目 7 在 个 体内 水 平 


的 因子 载荷 ， 在 个 体 间 随机 估计 ， 假 设 随时 间 不 变 ，gz 是 个 体 ; 的 题目 7 在 第 上 个 测量 时 间 


点 的 随机 测量 误差 ,假设 服从 正 态 分 布 ( 即 ，gjs ~ N (0, 03))， 各 个 题目 的 随机 测量 误差 的 方 


差 在 个 体 间 随机 估计 ， 题 目 间 协 方差 为 零 ( 即 ，cov (Ej, Eja) = 0.7 Ej) 
在 结构 部 分 ， 假 设 潜在 状态 因子 满足 一 阶 自 回归 过 程 ， 公 式 如 下 : 

个 体内 : Si = Sit, it En (16) 
其 中 ，q; 是 个 体 特定 的 自 回 归 效应 ;到 是 个 体 的 潜在 状态 因子 在 第 1 个 测量 时 间 点 的 动态 
误差 ,假设 服从 正 态 分 布 ( 即 ，E ~ N (0, 07))。 

随后 ， 对 观测 分 数 的 个 体 间 成 分 建立 个 体 间 模型 (如 图 3 右 下 部 分 )， 包 括 测量 部 分 和 随 
机 效应 部 分 。 在 测量 部 分 ， 个 体 间 成 分 被 进一步 分 解 : 


MATH: =a ,+ APT, +6, (17) 


其 中 ，a “是 题目 j 的 截 距 ，T; 是 个 体 i 的 潜在 特质 因子 ， 和 0 是 题目 j 在 个 体 间 水 平 的 因 


TRH: 6; 是 个 体 i 的 题目 j 的 测量 误差 ,假设 服 从 正 态 分 布 ( 即 ，6j ~N (0, 95) 各 个 题 


目的 测量 误差 的 协 方差 为 零 ( 即 ，cov (6j, 67) = 0, j Ej) 


在 随机 效应 部 分 , 个 体内 水 平 的 因 TREAP) 随机 测量 误差 方差 的 自然 对 数 (In(o3))、 


自 回归 效应 (qi; ) 和 动态 误差 方差 的 自然 对 数 (In(07)) 都 被 分 解 为 固定 部 分 ( 和”、0j)、g 和 vw) 和 


随机 部 分 (wi、 Vi、 eFC)): 


ww 
In(o3) =0;+ Wy (19) 
Oi:=9+e; (20) 
In(o?)=0+ CG; (21) 


这 些 个 体 特定 参数 的 固定 部 分 表示 该 参数 在 所 有 个 体 间 的 均值 , 随机 部 分 表示 某 一 个 体 


对 这 一 均值 的 偏离 值 。 假 设 每 个 参数 的 随机 部 分 都 满足 正 态 分 布 ( 即 ，w ~N (0, 0%)、 


Wi~N( og) ei ~NO,02 ) 和 5 ~N (0, 07)。 值 得 说 明 的 是 ， 对 随机 测量 误差 方差 和 


动态 误差 方差 取 自然 对 数 , 主要 是 为 了 确保 估计 得 到 的 每 个 个 体 的 随机 测量 误差 方差 和 动态 
误差 方差 均 为 正 值 。 此 外 ,对 这 些 误差 方差 取 自 然 对 数 还 有 助 于 基于 多 元 正 态 分 布 ， 考 察 这 
些 误差 方差 的 随机 对 数 与 其 它 参 数 (如 个 体 均值 或 自 回 归 效 应 ) 的 随机 效应 的 相关 关系 


(Hamaker et al., 2018). 


基于 上 述 模型 ,可 以 计算 各 个 题目 和 各 个 维度 在 个 体内 和 个 体 间 水 平 的 信 度 。 在 个 体内 
水 平 , 定 义 某 个 题目 的 个 体 特定 信 度 为 该 题 由 潜在 状态 因子 解释 的 变异 与 该 题 状 态 成 分 的 变 


异 之 比 , 各 个 维度 的 个 体 特定 信和 度 为 该 维度 内 各 题 由 潜在 状态 因子 解释 的 总 变异 与 该 维度 内 


各 题 状态 成 分 的 总 变异 之 比 。 个 体 i 的 题目 j 的 个 体 特定 信 度 (Re ) 和 各 个 维度 的 个 体 特定 


信和 度 (Rel”) 分 别 为 : 


var(A ws, i) 
Rel” = — (22) 


Ji varal” Si) + var (Ej) 
CEL AG Prar(Su) 


2a 23 
(DE Í aW Y var(Syi) + > 1var(gja) ( ) 


Rel” = 


其 中 ， var( al” 3) 是 可 以 由 潜在 状态 因子 解释 的 变异 ， 等 于 潜在 状态 因子 的 方差 (var(5;)) 与 


个 体内 水 平 的 因子 载荷 的 平方 (和 多) 的 乘积 ; var(gj) 是 不 可 以 由 潜在 状态 因子 解释 的 变异 ， 


即 随机 测量 误差 的 变异 ( 即 ，a7。 值 得 注意 的 是 ， 潜 在 状态 因子 的 方差 的 计算 公式 与 动态 因 


子 模型 中 潜在 因子 的 方差 相同 ， 即 : 


o? 
i 


var(S;;) = Taq 


(24) 
此 外 , 通过 整合 所 有 个 体 在 各 个 题目 和 各 个 维度 的 个 体 特定 信和 度 可 以 分 别 得 到 各 个 题目 和 各 
个 维度 的 个 体内 信和 度 ， 即 描述 个 体内 水 平 信 度 的 整体 指标 (具体 计算 方法 见 本 文 的 实证 示例 )。 
在 个 体 间 水 平 ,定义 某 个 题目 的 个 体 间 信 度 为 该 题 由 潜在 特质 因子 解释 的 变异 与 该 题 特 
质 成 分 的 变异 之 比 , 各 个 维度 的 个 体 间 信 度 为 该 维度 内 各 题 由 潜在 特质 因子 解释 的 总 变异 与 


该 维度 内 各 题 特质 成 分 的 总 变异 之 比 。 题目 j 的 个 体 间 信 度 (Re1 外 ) 和 各 个 维度 的 个 体 间 信 度 


(Rel®) 43 AWA: 
(B) 
B) _ var(a; Ti) 
Rel; vara” T;) + var(6j) (25) 
SZL 入 他 var(T) 
Rel® = ae (26) 


Oe i a” Pvar(T;) + ZE 1var(6)) 


其 中 ， var( 和 TD) 是 可 以 1 潜在 特质 因子 解释 的 变异 , 等 于 潜在 特质 因子 的 方差 (var(7)) 与 个 


体 间 水 平 的 因 了 载荷 的 平方 (AX) 的 乘 R; var(6)) 是 不 可 以 由 潜在 特质 因子 解释 的 变异 ， 


即 测量 误差 的 变异 ( 即 ，02 )。 


5 实证 应 用 
5. 1 实证 数据 与 分 析 方 法 
本 节 将 在 实证 数据 中 演示 如 何 基于 多 层 验证 性 因子 分 析 、 动 态 因子 分 析 和 动态 结构 方程 


模型 估计 密集 追踪 研究 中 各 个 题目 和 维度 的 信和 度 (以 单 维 测验 为 例 , 维度 信 度 即 为 测验 信和 度 ， 


Mplus 语句 和 R 代码 见 https://osf.io/n2gw7/?view_only=44938b711ff3425a8e65a87cf523a49c)。 


实证 数据 为 252 名 女 大 学 生 连 续 34 天 报告 的 日 常 拖延 数据 。 参 考 以 往 研 究 对 日 常 拖延 的 测 


量 (Kiihnel et al., 2016; Kiihnel et al., 2022; Maier et al., 2021; Van Eerde & Venus, 2018), 本 研究 
在 Tuckman(1991) 的 拖延 量 表 中 加 入 “今天 ”的 时 间 提 示 ( 如 ,“ 今 天 ， 我 不 必要 地 拖延 完成 
工作 ， 即 使 是 重要 的 工作 ”) 来 测量 个 体 的 每 日 拖延 情况 。 本 测验 共 包括 6 道 题 ， 被 试 需要 
在 每 晚 睡 前 从 1(“ 完 全 不 同意 ”) 到 7(“ 完 全 同意 ”) 对 每 道 题 进行 评分 。 最 终 ， 被 试 的 平均 
填 答 率 为 94.89%。 

基于 多 层 验证 性 因子 分 析 的 信 度 估计 可 在 Mplus 中 完成 ,采用 稳健 极 大 似 然 估计 (Mplus 
对 两 水 平 模型 的 默认 估计 方法 ) 得 到 多 层 验证 性 因子 分 析 模型 的 参数 估计 值 。 同 时 ， 根 据 公 
式 (4) ~ (7), 运用 Mplus 中 的 MODEL CONSTRAINT 语句 , 直接 得 到 个 体内 和 个 体 间 水 平 各 
个 题目 和 整个 测验 的 信 度 估计 值 和 标准 误 。 

基于 动态 因子 分 析 的 信 度 估计 需要 在 R 中 调用 Mplus 完成 。 具 体 来 说 ， 运 用 R 中 的 
MplusAutomation 包 (Hallquist & Wiley, 2018) Mplus, 将 每 个 个 体 的 日 常 拖延 数据 分 别 拟 
合 动态 因子 模型 。 采 用 贝 叶 斯 估计 法 (固定 迭代 次 数 为 10000 次 ， 根 据 Hamaker 等 人 (2018) 
的 建议 , 通过 PSR 和 各 参数 的 轨迹 图 (trace plot) 判 断 模型 此 时 已 收敛 ,下 同 ) 得 到 各 个 个 体 的 
动态 因子 模型 的 参数 估计 值 ， 并 运用 SAVEDATA 语句 保存 计算 个 体 特定 信和 度 所 需 的 参数 后 
验 分 布 (由 200 个 可 信 值 (plausible values) 组 成 )。 随 后 ， 根 据 公 式 (10) 和 (11)， 在 R 中 计算 得 
到 每 个 个 体 各 个 题目 和 整个 测验 的 个 体 特定 信 度 的 后 验 分 布 (由 200 个 可 信 值 组 成 )， 后 验 分 
布 的 中 位 数 为 该 个 体 的 某 个 题目 或 整个 测验 的 个 体 特定 信 度 的 点 估计 , 基于 所 有 个 体 的 个 体 
特定 信 度 的 点 估计 可 以 得 到 该 题目 或 测验 的 个 体 特定 信 度 的 分 布 。 

基于 动态 结构 方程 模型 的 信 度 估计 需要 同时 运用 Mplus 和 R 完成 。 在 Mplus 中 ， 采 用 
贝 叶 斯 估计 法 (国定 迭代 次 数 为 10000 次 ) 得 到 动态 结构 方程 模型 的 参数 估计 值 。 同 时 ， 根 据 
公式 (23) 和 (26), 运用 MODEL CONSTRAINT 语句 直接 得 到 个 体 间 水 平 各 个 题目 和 整个 测验 
的 信和 度 估计 值 和 95% 贝 叶 斯 可 信 区 间 的 上 、 下 限 。 为 了 估计 个 体 特定 信和 度 ， 首 先 在 Mplus 
中 运用 SAVEDATA 语句 保存 计算 个 体 特定 信 度 所 需 的 参数 后 验 分 布 (由 200 个 可 信 值 组 成 )。 
随后 ， 根 据 公 式 (22) 和 (23)， 在 R 中 计算 得 到 每 个 个 体 各 个 题目 和 整个 测验 的 个 体 特定 信 度 
的 后 验 分 布 (由 200 个 可 信 值 组 成 )。 类 似 基于 动态 因子 分 析 的 信 度 估计 法 ， 可 以 得 到 每 个 个 
体 的 某 个 题目 或 整个 测验 的 个 体 特定 信 度 的 点 估计 , 以 及 该 题目 或 测验 的 个 体 特定 信 度 的 分 
布 。 


多 层 验 证 性 因 


Re, 


子 分 析 或 动态 结构 方程 
还 可 以 估计 得 到 个 体内 信 度 。 个 体内 信 度 可 以 作为 个 体内 水 3 
子 分析 得 到 的 个 体内 信 度 进行 比较 为 了 得 到 各 个 题目 
] SAVEDATA 语句 保存 计算 个 体 特 定 信 度 所 需 的 参数 后 验 分 布 (由 200 个 可 信和 值 组 成 ) 


后 ， 先 计 外 


整个 测验 分 别 可 计生 


验 的 个 体内 信 度 的 后 


此 外 , 值得 说 明 的 是 , 在 基 


PEI 


N 


每 个 个 体 各 个 题目 


于 动态 


个 体 的 某 些 迭代 结果 


ot A 


蔡 换 为 缺失 值 ， 


5. 2 结果 与 讨论 
方法 估计 的 各 个 题目 和 整个 测验 的 个 体 间 


潜在 ( 状 


和 整个 测验 


因子 分 析 和 基 


即 不 纳入 最 终 对 信和 度 的 计算 。 


测验 的 信和 度 , 基 了 
相近 ， 个 体内 信 度 的 估计 


多 


层 验证 性 


因子 分 析 和 基 


对 于 各 个 题目 


的 信 度 的 整体 描述 ,可 与 基于 
或 整个 测验 的 个 体内 信 


的 个 体 特 定 信 度 (每 个 个 体 各 个 题目 
得 到 200 个 个 体 特 定 信和 度 )， 然 后 对 所 有 个 体 求 平均 ， 得 到 该 题目 
验 分 布 (由 200 个 个 体内 信 度 组 成 )， 后 验 分 布 的 中 位 数 为 个 体内 信 度 的 
点 估计 ，2.5% 和 97.5% 分 位 数 分 别 为 个 体内 信 度 的 95% 贝 叶 斯 可 信 区 间 


模型 估计 信和 度 时 ,除了 估计 每 个 个 体 的 个 体 特定 信和 度 ， 


和 
或 测 


的 上 、 下 限 。 


于 动态 结构 方程 模型 计 人 
子 方差 的 估计 值 可 能 为 负 。 为 了 排除 这 些 有 问题 的 迁 代 
结果 对 信 度 估计 的 影响 ， 我 们 参考 Xiao 等 人 (2023) 的 做 法 ， 将 相应 迭代 


信 度 时 , 某 些 


的 个 体 特定 信 度 


值 相差 相对 较 大 ， 且 都 低 于 基于 动态 


WEAR, 三 种 方法 的 信和 度 估计 结 果 也 存在 差异 。 


c+, 


言 度 和 个 体内 信和 度 如 表 1 所 示 。 对 于 整个 
于 动态 结构 方程 模型 得 到 的 个 体 间 信 度 的 估计 值 
因子 分 析 得 到 的 个 体内 信 度 。 
基于 多 层 验证 性 


因子 分 


析 和 基于 动态 结构 方程 模型 得 到 的 各 个 题目 的 个 体 间 和 个 体内 信 度 都 相对 接近 , 但 基于 动态 
因子 分 析 得 到 的 各 个 题目 的 个 体内 信 度 都 高 于 基于 动态 结构 方程 模型 得 到 的 结果 。 值 得 注意 


的 是 ， 在 基于 动态 因子 分 析 的 信 度 估计 过 程 
个 体 估计 的 方差 协 方差 矩阵 不 正定 等 )， 故 信 度 估计 结果 仅 基 了 
的 数据 。 这 可 能 表明 上 述 对 基于 动态 因 


FIM GETS 


， 有 145 人 的 动态 因子 模型 无 法 拟 合 ( 


因为 该 


F 模型 拟 合 的 107 人 (42.46%) 


它 方法 估计 得 到 的 信 度 结果 的 比较 存 


在 问题 ， 因 为 两 者 所 依据 的 样本 并 不 相同 , 研究 者 应 谨慎 解读 相关 结果 。 更 重要 的 是 ， 这 也 
提醒 研究 者 基于 动态 因子 分 析 的 信和 度 估计 方法 可 能 在 拟 合 某 些 个 体 模型 时 存在 困难 甚至 无 
法 成 功 拟 合 ， 相 应 的 个 体 特定 信和 度 无 法 估计 ， 个 体内 信和 度 的 估计 结果 也 可 能 存在 偏差 。 
#1 三 种 方法 的 个 体 间 信和 度 和 个 体内 信 度 
基于 多 层 验 证 性 因子 分 析 基于 动态 因子 分 析 ? 基于 动态 结构 方程 模型 

个 体 间 信和 度 个 体内 信和 度 个 体内 信和 度 个 体 间 信和 度 个 体内 信和 度 
题目 1 .954[.929, .979] .511 [.047, .550] 649 [.566,.704] 973 [.961, .985] .514[.500, .528] 
题目 2 。 .731[.631, .831] -305 [.266, .344] 472 [.365, .556] 851 [.802,.900] .329 [.311, .343] 


题目 3 .905 [.864, .946] .689 [.654, .724] .753 [.677, .796] 930 [.908, .952]  .677 [.658, .687] 
题目 4 .903 [.854, .952] .689 [.644, .734] .733 [.657, .783] 948 [.930, .966] .682 [.667, .694] 
题目 5 .946 [.922, .970] .623 [.586, .660] .747 [.657, .788] 966 [.952, .980]  .599 [.585, .609] 
题目 6 .963 [.939, .987] 652 [.615, .689] .747 [.670, .792] 990 [.982, .998] .618 [.603, .629] 
测验 .982 [.976, .988] 892 [.882, .902] .919 [.890, .937] 990 [.988, .992] .847 [.840, .852] 


注 : 中 括号 内 为 各 参数 的 95%( 贝 叶 斯 ) 可 信 区 间 的 上 上、 下限。 动态 因子 分 析 中 ，145 人 的 模型 无 法 拟 合 ， 个 体 
内 信 度 基于 剩余 107 人 (42.46%) 的 模型 参数 估计 结果 。 


此 外 ， 比 较 各 个 题目 的 信和 度 估计 结果 发 现 ， 题 目 20“ 今 天 ， 我 推迟 做 出 艰难 的 决定 ”) 
在 三 种 信和 度 估 计 方 法 中 均 呈 现 出 最 低 的 个 体 间 和 个 体内 信和 度 。 进 一 步 考 察 基于 动态 因子 分 析 
和 动态 结构 方程 模型 得 到 的 个 体 特定 信 度 的 分 布 ( 见 表 2) 发现， 在 两 种 可 以 估计 个 体 特定 信 
度 的 方法 中 , 题目 2 的 个 体 特定 信和 度 组 成 的 分 布 的 中 位 数 和 均值 都 明显 低 于 其 它 题 目 , 这 意 
味 着 题目 2 在 测量 拖延 的 状态 成 分 时 与 其 它 题目 的 内 部 一 致 性 较 低 。 结 合 题目 2 的 内 容 进 行 
分 析 可 以 为 此 提供 可 能 的 解释 。 在 Tuckman(1991) 的 原 量 表 中 ， 题 目 2 用 于 评估 个 体 推 迟 做 
出 艰难 决定 的 一 般 倾向 。 而 本 研究 在 题目 2 中 加 入 了 “今天 ”的 时 间 提 示 ， 并 用 其 测量 个 体 
每 天 在 多 大 程度 上 有 推迟 做 出 艰难 决定 的 情况 。 但 值得 注意 的 是 , 个体 并 不 一 定 每 天 都 会 面 
临 艰难 的 决定 。 因此, 个体 有 时 可 能 会 对 这 道 题 的 表述 感到 困惑 或 难以 作答 ， 故 题目 2 和 其 
它 题目 的 一 致 性 也 较 低 。 


表 2 基于 动态 因子 分 析 和 动态 结构 方程 模型 的 个 体 特定 信 度 的 分 布 


基于 动态 因子 分 析 * 基于 动态 结构 方程 模型 

最 小 值 AE ”中 位 数 ”均值 ”标准 差 最 小 值 ”最 大 值 中 位 数 ”均值 BE 
题目 1 .027 .978 .655 .648 .172 .041 .994 .534 .515 .204 
题目 2 .047 1.000 .474 .471 .262 .034 .984 .290 .329 .204 
题目 3 .014 1.000 .782 .753 .178 .032 .999 .724 .676 .236 
题目 4 110 1.000 .795 .737 .205 .030 .999 .745 .683 .238 
题目 5 219 1.000 .760 .746 ,148 .055 .999 .641 .599 .238 
题目 6 .144 1.000 .770 .745 .157 .056 .999 .638 .619 .214 
测验 .651 1.000 .931 .919 .055 .296 .976 .891 .847 .123 


TE: "动态 因子 分 析 中 ，145 人 的 模型 无 法 拟 合 ， 分 布 描述 基于 剩余 107 人 (42.46%) 的 个 体 特 定 信 度 。 


6 讨论 
6.1 三 种 方法 的 比较 分 析 

为 了 帮助 研究 者 更 好 地 了 解 并 选择 合适 的 信 度 估计 方法 , 本 文 对 可 用 于 密集 追踪 情境 的 
三 种 方法 的 不 同 特点 和 主要 局 限 进行 归纳 总 结 ( 见 表 3)。 一 方面 ， 从 数据 适 配 度 、 可 估 的 信 


度 和 估计 方法 这 三 个 维度 来 看 , 基于 动态 结构 方程 模型 的 信 度 估计 方法 整合 了 基于 多 层 验 证 
性 因子 分 析 和 基于 动态 因子 分 析 的 优势 ， 能 充分 体现 密集 追踪 数据 的 多 层 结构 和 动态 特性 
又 能 在 每 个 个 体 、 个 体内 和 个 体 间 水 平分 别 估 计 信 度 , 还 能 采用 贝 叶 斯 估计 法 更 灵活 地 估计 
模型 参数 的 随机 效应 ,进而 考察 个 体 差异 相关 的 问题 。 但 另 一 方面 ， 从 软件 需求 和 运行 耗 时 
这 两 个 维度 来 看 ， 基 于 动态 结构 方程 模型 的 信 度 估计 方法 需要 用 到 Mplus 和 其 它 统计 软件 
(如 ，R) 估 计 信 和 度 ， 且 由 于 模型 相对 复杂 ， 程 序 运行 所 需 时 间 也 较 长 。 相 比 之 下 ， 基 于 多 层 
验证 性 因子 分 析 的 信 度 估计 方法 只 需 Mplus 即 可 完成 ， 语 句 简 明 ， 结 果 直 接 ， 运 行 高 效 ， 
在 简便 性 方面 存在 优势 。 此 外 ， 表 3 还 梳理 了 三 种 方法 的 主要 局 限 。 


表 3 三 种 信 度 估计 方法 的 比较 


基于 多 层 验证 性 因子 分 析 基于 动态 因子 分 析 基于 动态 结构 方程 模型 
数据 适 配 度 ”体现 密集 追踪 数据 的 多 层 结构 “体现 密集 追踪 数据 的 动态 特性 体现 密集 追踪 数据 的 多 层 结构 和 动态 特性 
可 估 的 信和 度 ”个 体内 信和 度 和 个 体 间 信 度 个 体 特定 信和 度 和 个 体内 信和 度 个 体 特定 信和 度 、 个 体内 信和 度 和 个 体 间 信和 度 
估计 方法 极 大 似 然 估计 贝 叶 斯 估计 贝 叶 斯 估计 
软件 需求 只 需 Mplus 即 可 完成 需 在 R 中 调用 Mplus 需要 Mplus 和 其 它 统计 软件 如 ，R) 
运行 耗 时 * ”可 忽略 不 计 ( 本 例 中 ， 小 于 1ls) ” 较 短 (本 例 中 ， 约 10min) 较 长 (本 例 中 ， 约 2h) 

中 对 数据 有 较 强 的 假设 混淆 特质 和 状态 成 分 ， 信 度 估计 不 准 
主要 局 限 @@ 无 法 考察 信 度 的 个 体 差异 包 忽 视 多 层 结构 ， 无 法 估计 个 体 间 信 和 度 O 操作 相对 复杂 ， 耗 时 较 长 ， 不 够 简便 


@ 没 有 考虑 数据 的 动态 特性 @ 某 些 个 体 模型 可 能 无 法 拟 合 
JÈ: “CPU 型 号 为 12th Gen Intel(R) Core(TM) i5-12500H， 内 存 参数 为 16GB LPDDRS. 


考虑 到 各 种 方法 的 特点 和 局 限 ， 本文 对 不 同方 法 的 适用 情境 提出 建议 , 并 整理 提出 信和 度 
估计 方法 的 选择 策略 流程 图 ( 见 图 4)。 首 先 ， 若 研究 者 不 关注 测验 信和 度 的 个 体 差异 或 个 体 特 
ERE, 而 是 侧重 于 从 整体 上 了 解 测验 在 个 体内 和 个 体 间 水 平 的 信和 度 , 或 研究 者 已 采用 合适 
的 方法 (如 , 交叉 分 类 模型 ; McNeish et al., 2021) 验 证 测验 在 不 同 个 体 之 间 的 测量 满足 不 变性 ， 
则 研究 者 可 选用 基于 多 层 验证 性 因子 分 析 的 信 度 估计 方法 , 相对 简单 地 检验 并 报告 测验 的 个 
体内 和 个 体 间 信和 度 。 其 次 ， 若 研究 者 有 理由 认为 不 存在 个 体 特质 因子 (7) 对 题目 作答 (Yi;) 的 
影响 ， 重 点 考察 不 同 个 体 测量 模型 的 差异 ， 关 注 个 体 特定 信和 度 ， 或 研究 的 被 试 量 较 小 (甚至 


it 


密集 追踪 研究 中 测验 信和 度 的 估计 
| 


关注 测验 信 度 的 个 体 差 异 或 个 体 特定 信 度 ? 


=] 
是 T 


M 
认为 存在 个 体 特 质 因子 对 题目 作答 的 影响 ? 


是 否 
Vv 

基于 动态 结构 方程 模型 基于 动态 因子 分 析 基于 多 层 验证 性 因子 
的 估计 方法 的 估计 方法 分 析 的 估计 方法 
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4 密集 追踪 研究 中 测验 信 度 估计 方法 的 选择 策略 流程 图 


是 单一 个 体 的 时 序 研究 )， 不 足以 考察 测验 在 个 体 间 水 平 的 表现 ， 则 研究 者 可 以 选择 基于 动 
态 因子 分 析 的 信 度 估计 方法 , 得 到 测验 的 个 体 特定 信和 度 和 个 体内 信 度 , 但 此 时 还 需要 注意 重 


复 测 量 的 时 间 点 是 否 足够 多 和 个 体 模 型 能 否 成 功 拟 合 等 问题 。 然 而 ， 在 其 它 大 多 数 情况 下 ， 


内 信 度 和 个 体 间 信 度 。 现 有 的 许多 密集 追踪 研究 


随时 间 的 变化 (Horstmann & Ziegler, 2020; Trull & Ebner-Priemer, 2020), 题目 的 选择 和 改编 交 


更 建议 研究 者 采用 基于 动态 结构 方程 模型 的 信和 度 估计 方法 , 得 到 测验 的 个 体 特定 信和 度 、 个 体 


通过 改编 特质 测验 中 的 部 分 题目 来 测量 变量 


果 都 缺乏 合适 的 量化 分 析 结 果 文 持 。 对 此 , 研究 


法 来 充分 检验 改编 后 的 测验 能 否 可 靠 地 衡量 个 体 间 水 平 的 差异 以 及 各 个 个 体 和 个 体内 水 平 


者 可 以 基于 动态 结构 方程 模型 的 信 度 估计 方 


整体 的 动态 变化 过 程 。 更 重要 的 是 , 考虑 到 有 而 
踪 情 境 的 测验 (Dietrich et al., 2022; Horstmann & Ziegler, 2020; Mielniczuk, 2023)， 且 近年 来 也 


有 越 来 越 多 这 类 测验 开发 的 


究 者 呼吁 未 来 研究 重视 开发 更 适用 于 密集 追 


H (Blanke & Brose, 2017; Engyel et al., 2022; Ringwald et al., 


2022)， 测 验 开 发 阶段 的 信 度 估计 应 该 尽 可 能 采用 适 配 于 密集 追踪 数据 且 可 估计 各 类 信 度 的 
方法 ( 即 ， 基 于 动态 结构 方程 模型 的 信 度 估计 方法 )， 以 帮助 测验 开发 者 更 好 地 检验 新 测验 在 


可 靠 性 方面 的 表现 。 


6.2 实践 应 用 中 的 建议 
6.2.1 各 个 题目 的 信和 度 


密集 追踪 研究 中 各 个 题目 


究 中 的 变量 ， 部 分 研究 者 会 选取 多 个 题目 


的 信和 度 是 实践 应 月 


(如 ， 三 个 及 以 上 ) 来 测量 变量 随时 间 的 变化 过 程 ， 


中 需要 关注 的 一 个 问题 ,为 了 更 好 地 测量 


但 大 部 分 这 类 研究 仅 报告 整个 测验 的 信 度 ， 而 未 考虑 各 个 题目 的 信 度 (Eltanamly et al., 2023; 


Koval et al., 2019; Van Der Tuin et al., 2023; Wright et al., 2017)。 有 研究 者 指出 ， 从 特质 测验 中 


选取 并 改编 的 题目 并 不 一 定 直 接 适 用 于 对 相应 
Mielniczuk, 2023)。 此 外 ， 本 文 的 实证 应 用 也 发 


状态 的 密集 测量 (Horstmann & Ziegler, 2020; 


现 ， 某 些 改编 自 特质 测验 的 题目 在 各 种 方法 


得 到 的 各 个 水 平 的 信 度 上 都 低 了 


内 它 题目 ,结合 题目 内 容 的 分 析 表 明 , 该 题 可 能 并 不 适用 


密集 追踪 的 情境 。 由 此 可 见 ， 应 用 研究 者 在 检验 并 报告 整个 测验 的 信 度 之 余 ,还 应 该 进一步 


察 各 个 题目 的 信 度 。 一 方面 ， 


各 个 题目 的 信 度 


究 者 鉴别 可 能 不 宜 用 于 密集 追 


估计 结果 以 及 题目 间 的 比较 分 析 可 以 帮助 下 


踪 情 境 的 题目 , 这 


研究 尤为 重要 。 另 一 方面 ， 考 虑 到 有 和 天 


道 题 ， Mielniczuk, 2023) 以 平衡 测验 质量 和 作答 


研究 者 适当 缩减 密集 追踪 研究 中 的 测验 ， 提 高 测量 


对 于 采用 特质 测验 的 改编 题 测量 状态 变量 的 


究 者 建议 在 密集 追踪 研究 中 采用 较 短 的 测验 (如 ，3~6 


负担 的 影响 ， 对 各 个 题目 信 度 的 评估 有 助 于 


k 


E. 


SOI 


6.2.2 信和 度 的 个 体 差 异 


密集 追踪 情境 中 值得 关注 的 另 
许多 研究 者 强调 ， 信 度 是 一 种 特定 了 


1999)， 基 于 某 个 群体 得 到 的 信 度 估计 结果 不 一 定 能 # 
， 研 究 者 关注 个 体内 的 动态 过 程 及 


踪 情 境 


间 的 变化 可 能 具 


的 可 靠 性 很 可 能 3 


信和 度 时 有 必要 考虑 个 体 特定 信和 度 及 其 个 体 间 差异 ,这 不 仅 可 以 帮助 研究 者 


所 用 测验 在 测量 可 靠 性 方面 的 表现 以 及 对 施 测 群体 的 适 月 


Pts FP 


个 问题 是 测验 信 度 的 个 体 差异 。 在 信和 度 的 早期 


究 中 有 


f 体 的 测验 特性 (Mellenbergh, 1996; Wilkinson, 


供 更 丰富 的 支持 性 或 警示 性 


言 息 。 对 于 个 


-LA 
Fa. 


广 到 其 它 群体 


。 类 似 地 ， 在 密集 追 


有 一 定 的 特异 性 (Schuurman & Hamaker, 2019)。 因 此 ， 不 同 个 体 旧 


测验 分 数 的 可 靠 性 , 而 个 体 的 行为 和 状态 随时 


的 测验 分 数 


nes 


不 相等 (Fisher et al., 2018; Stone et al., 2023), 7284238 


估计 测验 


Pmt Fe 


深入 地 了 解 研究 
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完结 果 的 可 和 
度 有 和 警示 作 


6.2.3 信和 度 结果 的 报告 


综合 上 述 两 点 ， 我 们 对 密集 追踪 研究 中 信 度 估计 结果 的 报告 提 
信和 度 的 重要 性 , 建议 基于 


到 各 个 题目 
的 研究 者 报告 各 个 题目 


Al 


]， 研 究 者 在 对 相关 结果 侨 


解释 和 推 


HIER, 还 可 以 为 下 
体 特定 信 度 ,大 部 分 个 体 较 高 的 信 度 可 为 个 体内 水 
性 提供 支持 , 反之 ,大 量 个 体 较 低 的 信 度 则 对 个 体内 水 平 研究 结果 的 可 信 


vei 
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态 因 


子 分 析 佑 计 信 度 的 下 
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现下 
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63 其 它 方法 与 研究 展望 
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表 2)， 以 考察 题目 和 测验 对 各 个 个 


后 


的 描述 人 


加 谨慎 。 


此 外 ,对 于 信和 度 的 个 体 差 异 问题 如果 


ET 


计 信 和 度 , 且 关 注 个 体 特定 信 度 的 个 体 间 差异 , 贝 
结果 。 有 具体 来 说 ， 研 究 可 以 呈现 各 个 题目 


这 些 分 布 


1 重复 一 道 情绪 题 ， 


FIT 


Bx 
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y DAZE oe EIB BRE 
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ty 
Ly 


创建 习 


本 的 适 月 


X 


想 ， 


两 个 分 数 间 的 差 值 
F 行 测验 , 并 计生 


ji 


HTE, M ry Se te 


动态 因子 分 析 或 基 


和 整个 测验 (或 各 个 维度 ， 下 同 ) 的 个 体内 信 度 和 个 体 间 信 度 ， 基 于 


各 个 题目 和 整个 测验 的 个 


结果 的 解读 提 


九 


两 点 建议 。 首先 ， 考虑 


层 验 证 性 因子 分 析 和 基于 动态 结构 方程 模 


型 估计 信 度 
a 


体内 信 度 , 每 个 信 度 估计 结果 应 
区 间 的 上 、 下 限 (参见 本 文 表 1D)。 这 些 信 度 估计 结果 可 以 体 
完 所 用 的 各 个 题目 和 整个 测验 在 个 体 间 和 个 体内 水 平 的 整体 表现 , 有 助 于 识别 不 适用 了 


， 为 测验 可 靠 性 评价 提供 主要 参考 依据 。 


J 


F 价 提供 


于 动态 结构 方程 模型 
究 可 以 进一步 报告 个 体 特定 信和 度 的 相关 
和 整个 测验 的 个 体 特定 信和 度 分 布 图 (参见 Xiao 等 人 
FE 统 计 指 标 (如 中 位 数 、 均 值 和 标准 差 等 ， 参 见 本 文 


3 


甫 助 参考 依据 。 


的 信和 度 估 计 方 法 ， 在 密集 追踪 情境 中 测验 信和 度 的 估计 还 有 需 
比如 ， 受 启发 于 传统 的 重 测 信 度 估计 思 


要 探索 与 尝试 。 


Dejonckheere 等 人 (2022) 通 过 在 密集 追踪 测验 中 


每 个 个 体 在 3 


平方 来 估计 该 题 的 信和 度 。Hu 等 人 (2016) 还 


F 行 测验 上 得 分 的 相关 来 估计 


个 体 特定 信和 度 。 


此 外 ， 


还 有 研究 基于 潜在 特质 -状态 理论 (latent state-trait theory, LST; Steyer et al., 1999, 


2015) 探讨 可 用 于 密集 追踪 研究 的 信 度 估计 方法 (Castro-Alvarez，Tendeiro，Meijer & 


Bringmann, 2022; Castro-Alvarez, Tendeiro, & de Jonge et al., 2022)。 潜 在 特质 -状态 理论 中 有 


三 个 重要 的 比例 系数 (Steyer et al., 2015): 一 致 性 (consistency)、 情 境 特异 性 (occasion specificity) 


和 可 信 度 (reliability)。 一 致 性 是 指 源 于 随时 间 稳 定 的 特质 成 分 的 变异 与 总 变异 的 比例 ， 情 | 


也 即 随机 测量 ; 


特异 性 是 指 源 于 具体 情境 的 状态 成 分 的 变异 与 总 变异 的 比例 ; 可 信和 度 则 是 一 致 性 和 情境 特异 
性 之 和 ， 即 特定 情境 下 源 于 稳定 的 特质 成 分 和 具体 情境 的 状态 成 分 的 变异 与 总 变异 的 比例 ， 


TA 


IR2 


差 之 外 的 变异 与 总 变异 的 比例 。 在 此 理论 框架 和 信和 度 定 义 下 , 可 以 基于 多 种 


模型 估计 密集 追踪 研究 中 测验 的 信和 度 ， 如 多 状态 - 单 特质 (multistate-singletrait, MSST; Steyer 


et al., 2015) 模 型 、 共 同 独 特 特质 -状态 (common and unique trait-state, CUTS; Hamaker et al., 


2017) 模 型 和 特质 -状态 -情境 (trait-state-occasion, TSO; Eid et al., 2017) 模 型 。 这 些 模 型 与 本 文 


介绍 的 模型 存在 一 


定 关联 。 比 如 ， 多 层 的 共同 独特 特质 -状态 模型 在 统计 上 与 多 层 验 证 性 因 


-> 


子 分 析 模 型 相同 (Roesch et al., 2010) ， 而 混合 效应 的 特质 -状态 -情境 (mixed-effects 


trait-state-occasion, ME-TSO; Castro-Alvarez, Tendeiro, & de Jonge et al., 2022) 模 型 与 本 文 介 


ANA 


的 两 水 平 动态 结构 方程 模型 在 统计 上 也 是 相同 的 。 但 值得 注意 的 是 , 由 于 基于 特质 状态 理 
论 的 模型 和 本 文 介 绍 的 其 它 模型 在 变异 分 解 思路 和 对 信 度 的 定义 等 方面 存在 差异 , 得 到 的 信 


iy 


度 估计 值 及 其 解释 方式 也 可 能 不 同 。 对 此 感 兴趣 的 研究 者 可 以 参阅 Castro-Alvarez, Tendeiro, 


Meijer 和 Bringmann (2022) 以 及 Castro-Alvarez, Tendeiro 和 de Jonge 等 人 (2022) 的 文章 。 


随 着 密集 


Fy 


追踪 研究 的 不 断 发 展 , 密集 奶 踪 情境 中 测验 信和 度 相 关 的 问题 值得 更 多 方法 和 应 
用 研究 者 的 关注 。 


在 方法 研究 中 ,测验 信和 度 常 常 基 于 特定 的 模型 进行 估计 ， 而 相应 信和 度 指标 


的 应 用 也 受 限于 
于 其 它 模型 (如 , 连 


Driver et al., 2017) 的 信 度 定义 和 估计 方法 。 在 应 用 研究 中 ， 研 究 者 对 测验 信 度 的 检验 与 报告 


该 模型 的 适用 范围 (Laenen et al., 2009)。 因 此 ， 未 来 研究 可 以 进一步 探讨 基 


续 时 间 结 构 方 程 模 型 ; continuous time structural equation modeling, CTSEM; 


i 


并 没有 给 予 足够 的 重视 (Brose et al., 2020; Horstmann & Ziegler, 2020; Stone et al., 2023; Trull 


& Ebner-Priemer, 2020)， 未 来 研究 应 该 将 测验 信 度 的 检验 作为 数据 分 析 的 必要 步骤 ， 根 据 有 具 


体 研 究 情境 选择 合适 的 信 度 估计 方法 以 得 到 更 合理 可 靠 的 研究 结论 。 


参考 文献 


叶 宝 娟 , 温 忠 麟 ， 陈 启 山 . (2012). 追踪 研究 中 测验 信 度 的 估计 . DALAL REL, 20(3), 467-474. 


HAY TT, KWS, FRF, WRZ. (2021). BH 


追踪 数据 分 析 : BER. BAY AE, 2911), 


amr 


1948-1972. 

Asparouhov, T., Hamaker, E. L., & Muthén, B. (2018). Dynamic structural equation models. Structural Equation 
Modeling: A Multidisciplinary Journal, 25(3), 359-388. 

Blanke, E. S., & Brose, A. (2017). Mindfulness in daily life: A multidimensional approach. Mindfulness, 8, 
737-750. 

Bolger, N., & Laurenceau, J. P. (2013). Intensive longitudinal methods: An introduction to diary and experience 
sampling research, Guilford press. 

Bolger, N., Davis, A., & Rafaeli, E. (2003). Diary methods: Capturing life as it is lived. Annual Review of 
Psychology, 54(1), 579-616. 

Brose, A., Schmiedek, F., Gerstorf, D., & Voelkle, M. C. (2020). The measurement of within-person affect 
variation. Emotion, 20(4), 677-699. 

Castro-Alvarez, S., Tendeiro, J. N., de Jonge, P., Meijer, R. R., & Bringmann, L. F. (2022). Mixed-effects 
trait-state-occasion model: Studying the psychometric properties and the person-situation interactions of 
psychological dynamics. Structural Equation Modeling: A Multidisciplinary Journal, 29(3), 438—451. 

Castro-Alvarez, S., Tendeiro, J. N., Meijer, R. R., & Bringmann, L. F. (2022). Using structural equation modeling 
to study traits and states in intensive longitudinal data. Psychological Methods, 27(1), 17-43. 

Cattell, R. B., Cattell, A. K. S., & Rhymer, R. M. (1947). P-technique demonstrated in determining 
psychophysiological source traits in a normal individual. Psychometrika, 12, 267—288. 

Collins, L. M. (2006). Analysis of longitudinal data: The integration of theoretical model, temporal design, and 
statistical model. Annual Review of Psychology, 57, 505-528. 

Cranford, J. A., Shrout, P. E., lida, M., Rafaeli, E., Yip, T., & Bolger, N. (2006). A procedure for evaluating 
sensitivity to within-person change: Can mood measures in diary studies detect change reliably? Personality 
and Social Psychology Bulletin, 32(7), 917-929. 

Cronbach, L. J., Rajaratnam, N., & Gleser, G. C. (1963). Theory of generalizability: A liberalization of reliability 
theory. British Journal of Statistical Psychology, 16(2), 137-163. 

Dejonckheere, E., Demeyer, F., Geusens, B., Piot, M., Tuerlinckx, F., Verdonck, S., & Mestdagh, M. (2022). 
Assessing the reliability of single-item momentary affective measurements in experience sampling. 
Psychological Assessment, 34(12), 1138-1154. 


Di Sarno, M., Zimmermann, J., Madeddu, F., Casini, E., & Di Pierro, R. (2020). Shame behind the corner? A daily 


diary investigation of pathological narcissism. Journal of Research in Personality, 85, 103924. 

Dietrich, J., Schmiedek, F., & Moeller, J. (2022). Academic motivation and emotions are experienced in learning 
situations, so let's study them [Special issue]. Learning and Instruction, 81, 101623. 

Driver, C. C., Oud, J. H., & Voelkle, M. C. (2017). Continuous time structural equation modeling with R package 
ctsem. Journal of Statistical Software, 77, 1-35. 

Eid, M., Holtmann, J., Santangelo, P., & Ebner-Priemer, U. (2017). On the definition of latent-state-trait models 
with autoregressive effects. European Journal of Psychological Assessment, 33(4), 285-295. 

Eltanamly, H., Leijten, P, Van Roekel, E., Mouton, B., Pluess, M., & Overbeek, G. (2023). Strengthening parental 
self - efficacy and resilience: A within - subject experimental study with refugee parents of 
adolescents. Child Development, 94(1), 187—201. 

Engyel, M., de Ruiter, N. M., & Urban, R. (2022). Momentarily narcissistic? Development of a short, state version 
of the Pathological Narcissism Inventory applicable in momentary assessment. Frontiers in Psychology, 13, 
992271. 

Fisher, A. J., Medaglia, J. D., & Jeronimus, B. F. (2018). Lack of group-to-individual generalizability is a threat to 
human subjects research. Proceedings of the National Academy of Sciences, 115(27), E6106-E6115. 

Fuller-Tyszkiewicz, M., Hartley-Clark, L., Cummins, R. A., Tomyn, A. J., Weinberg, M. K., & Richardson, B. 
(2017). Using dynamic factor analysis to provide insights into data reliability in experience sampling 
studies. Psychological Assessment, 29(9), 1120-1128. 

Geldhof, G. J., Preacher, K. J., & Zyphur, M. J. (2014). Reliability estimation in a multilevel confirmatory factor 
analysis framework. Psychological Methods, 19(1), 72-91. 

Gerstberger, L., Blanke, E. S., Keller, J., & Brose, A. (2023). Stress buffering after physical activity engagement: 
An experience sampling study. British Journal of Health Psychology, 28(3), 876-892. 

Hallquist, M. N., & Wiley, J. F. (2018). MplusAutomation: an R package for facilitating large-scale latent variable 
analyses in Mplus. Structural Equation Modeling: A Multidisciplinary Journal, 25(4), 621-638. 

Hamaker, E. L., & Wichers, M. (2017). No time like the present: Discovering the hidden dynamics in intensive 
longitudinal data. Current Directions in Psychological Science, 26(1), 10-15. 

Hamaker, E. L., Asparouhov, T., Brose, A., Schmiedek, F., & Muthén, B. (2018). At the frontiers of modeling 
intensive longitudinal data: Dynamic structural equation models for the affective measurements from the 
COGITO study. Multivariate Behavioral Research, 53(6), 820-841. 


Hamaker, E. L., Schuurman, N. K., & Zijlmans, E. A. O. (2017). Using a few snapshots to distinguish mountains 


from waves: Weak factorial invariance in the context of trait-state research. Multivariate Behavioral Research, 
52(1), 47-60. 

Hausen, J. E., Möller, J., Greiff, S., & Niepel, C. (2023). Morningness and state academic self-concept in students: 
Do early birds experience themselves as more competent in daily school life? Contemporary Educational 
Psychology, 74, 102199. 

Horstmann, K. T., & Ziegler, M. (2020). Assessing personality states: What to consider when constructing 
personality state measures. European Journal of Personality, 34(6), 1037—1059. 

Hu, Y., Nesselroade, J. R., Erbacher, M. K., Boker, S. M., Burt, S. A., Keel, P. K., ... Klump, K. (2016). Test 
reliability at the individual level. Structural Equation Modeling: A Multidisciplinary Journal, 23(4), 532—543. 

Koval, P., Holland, E., Zyphur, M. J., Stratemeyer, M., Knight, J. M., Bailen, N. H., ... Haslam, N. (2019). How 
does it feel to be treated like an object? Direct and indirect effects of exposure to sexual objectification on 
women’s emotions in daily life. Journal of Personality and Social Psychology, 116(6), 885—898. 

Kiihnel, J., Bledow, R., & Feuerhahn, N. (2016). When do you procrastinate? Sleep quality and social sleep lag 
jointly predict self - regulatory failure at work. Journal of Organizational Behavior, 37(7), 983—1002. 

Kithnel, J., Bledow, R., & Kuonath, A. (2022). Overcoming procrastination: Time pressure and positive affect as 
compensatory routes to action. Journal of Business and Psychology, 38(4), 803-819. 

Laenen, A., Alonso, A., Molenberghs, G., & Vangeneugden, T. (2009). A family of measures to evaluate scale 
reliability in a longitudinal setting. Journal of the Royal Statistical Society Series A: Statistics in Society, 
172(1), 237-253. 

Lafit, G., Adolf, J. K., Dejonckheere, E., Myin-Germeys, I., Viechtbauer, W., & Ceulemans, E. (2021). Selection of 
the number of participants in intensive longitudinal studies: A user-friendly shiny app and tutorial for 
performing power analysis in multilevel regression models that account for temporal dependencies. Advances 
in Methods and Practices in Psychological Science, 4(1), 1—24. 

Lane, S. P., & Shrout, P. E. (2010). Assessing the reliability of within-person change over time: A dynamic factor 
analysis approach. Multivariate Behavioral Research, 45(6), 1027. 

Luo, X., Hu, Y., & Liu, H. (under review). Assessing between- and within-person reliabilities of items and scale for 
daily procrastination: A multilevel and dynamic approach. Assessment. 

Maier, T., Kühnel, J., & Zimmermann, B. (2021). How did you sleep tonight? The relevance of sleep quality and 
sleep-wake rhythm for procrastination at work. Frontiers in Psychology, 12, 785154. 


McNeish, D., & Hamaker, E. L. (2020). A primer on two-level dynamic structural equation models for intensive 


longitudinal data in Mplus. Psychological Methods, 25(5), 610-635. 

McNeish, D., Mackinnon, D. P., Marsch, L. A., & Poldrack, R. A. (2021). Measurement in intensive longitudinal 
data. Structural Equation Modeling: A Multidisciplinary Journal, 28(5), 807-822. 

Mellenbergh, G. J. (1996). Measurement precision in test score and item response models. Psychological Methods, 
1(3), 293-299. 

Mielniczuk, E. (2023). Call for new measures suitable for intensive longitudinal studies: Ideas and suggestions. 
New Ideas in Psychology, 68, 100983. 

Molenaar, P. C. (1985). A dynamic factor model for the analysis of multivariate time series. Psychometrika, 50(2), 
181-202. 

Muthén, B., & Asparouhov, T. (2012). Bayesian structural equation modeling: a more flexible representation of 
substantive theory. Psychological Methods, 17(3), 313-335. 

Neubauer, A. B., Schmidt, A., Schmiedek, F., & Dirk, J. (2022). Dynamic reciprocal relations of achievement goals 
with daily experiences of academic success and failure: An ambulatory assessment study. Learning and 
Instruction, 81, 101617. 

Nezlek, J. B. (2017). A practical guide to understanding reliability in studies of within-person variability. Journal 
of Research in Personality, 69, 149-155. 

Reis, D., Arndt, C., Lischetzke, T., & Hoppe, A. (2016). State work engagement and state affect: Similar yet 
distinct concepts. Journal of Vocational Behavior, 93, 1—10. 

Ringwald, W. R., Manuck, S. B., Marsland, A. L., & Wright, A. G. (2022). Psychometric evaluation of a Big Five 
personality state scale for intensive longitudinal studies. Assessment, 29(6), 1301-1319. 

Roesch, S. C., Aldridge, A. A., Stocking, S. N., Villodas, F., Leung, Q., Bartley, C. E., & Black, L. J. (2010). 
Multilevel factor analysis and structural equation modeling of daily diary coping data: Modeling trait and 
state variation. Multivariate Behavioral Research, 45(5), 767—789. 

Scherer, R., & Teo, T. (2020). A tutorial on the meta-analytic structural equation modeling of reliability coefficients. 
Psychological Methods, 25(6), 747-775. 

Schmitt, A., Belschak, F. D., & Den Hartog, D. N. (2017). Feeling vital after a good night’s sleep: The interplay of 
energetic resources and self-efficacy for daily proactivity. Journal of Occupational Health Psychology, 22(4), 
443-454. 

Schénbrodt, F. D., Zygar-Hoffmann, C., Nestler, S., Pusch, S., & Hagemeyer, B. (2021). Measuring motivational 


relationship processes in experience sampling: A reliability model for moments, days, and persons nested in 


couples. Behavior Research Methods, 54(4), 1869-1888. 

Schuurman, N. K., & Hamaker, E. L. (2019). Measurement error and person-specific reliability in multilevel 
autoregressive modeling. Psychological Methods, 24(1), 70-91. 

Shiffman, S., Stone, A. A., & Hufford, M. R. (2008). Ecological momentary assessment. Annual Review of Clinical 
Psychology, 4, 1-32. 

Steyer, R., Mayer, A., Geiser, C., & Cole, D. A. (2015). A theory of states and traits-Revised. Annual review of 
clinical psychology, 11, 71-98. 

Steyer, R., Schmitt, M., & Eid, M. (1999). Latent state-trait theory and research in personality and individual 
differences. European Journal of Personality, 13(5), 389-408. 

Stone, A. A., Schneider, S., & Smyth, J. M. (2023). Evaluation of pressing issues in ecological momentary 
assessment. Annual Review of Clinical Psychology, 19, 107—131. 

Trull, T. J., & Ebner-Priemer, U. (2013). Ambulatory assessment. Annual Review of Clinical Psychology, 9, 
151-176. 

Trull, T. J., & Ebner-Priemer, U. W. (2020). Ambulatory assessment in psychopathology research: A review of 
recommended reporting guidelines and current practices. Journal of Abnormal Psychology, 129(1), 56-63. 
Tuckman, B. W. (1991). The development and concurrent validity of the procrastination scale. Educational and 

Psychological Measurement, 51(2), 473-480. 

Van Der Tuin, S., Booij, S. H., Oldehinkel, A. J., Van Den Berg, D., Wigman, J. T. W., Lang, U., & Kelleher, I. 
(2023). The dynamic relationship between sleep and psychotic experiences across the early stages of the 
psychosis continuum. Psychological Medicine. Advance online publication. 
https://doi.org/10.1017/S0033291723001459 

Van Eerde, W., & Venus, M. (2018). A daily diary study on sleep quality and procrastination at work: The 
moderating role of trait self-control. Frontiers in Psychology, 9, 2029. 

Wilkinson, L. (1999). Statistical methods in psychology journals: Guidelines and explanations. American 
Psychologist, 54(8), 594—604. 

Wright, A. G., Stepp, S. D., Scott, L. N., Hallquist, M. N., Beeney, J. E., Lazarus, S. A., & Pilkonis, P. A. (2017). 
The effect of pathological narcissism on interpersonal and affective processes in social interactions. Journal 
of Abnormal Psychology, 126(7), 898-910. 

Xiao, Y., Wang, P, & Liu, H. (2023). Assessing intra-and inter-individual reliabilities in intensive longitudinal 


studies: A two-level random dynamic model-based approach. Psychological Methods. Advance online 


publication. https://doi.org/10.1037/met0000608 

Xu, J., & Zheng, Y. (2022). Links between shared and unique perspectives of parental psychological control and 
adolescent emotional problems: A dyadic daily diary study. Child Development, 93(6), 1649-1662. 

Zhou, L., Wang, M., & Zhang, Z. (2021). Intensive longitudinal data analyses with dynamic structural equation 


modeling. Organizational Research Methods, 24(2), 219-250. 


Estimating test reliability of intensive longitudinal studies: 


Perspectives on multilevel structure and dynamic nature 
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Abstract 

With the widespread use of intensive longitudinal studies in psychology and other social sciences, 
reliability estimation of tests in intensive longitudinal studies has received increasing attention. 
Earlier reliability estimation methods drawn from cross-sectional studies or based on 
generalizability theory have many limitations and are not applicable to intensive longitudinal 
studies. Considering the two main characteristics of intensive longitudinal data, multilevel 
structure and dynamic nature, the reliability of tests in intensive longitudinal studies can be 
estimated based on multilevel confirmatory factor analysis, dynamic factor analysis, and dynamic 
structural equation models. The main features and applicable contexts of these three reliability 
estimation methods are demonstrated with empirical data. Future research could explore the 
reliability estimation methods based on other models, and should also pay more attention to the 
testing and reporting of test reliability in intensive longitudinal studies. 
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